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摘 要 以 360 名 初中 生 为 被 试 , 使 用 推 箱子 游戏 , 结合 游戏 日 志文 件 (dog-file) 和 机 器 学 习 
技术 预测 学 生 的 推理 能 力 和 数学 成 绩 。 预 测 变量 是 从 推 箱子 的 过 程 数据 中 提取 的 一 系列 特征 
指标 ， 结 果 变 量 是 瑞 文 推理 测验 成 绩 和 数学 成 绩 , 且 均 以 25% 为 高 低 分 组 的 临界 值 转换 为 二 
分 变量 。 结 果 发 现 , 训练 的 模型 预测 推理 能 力 最 高 能 获得 76.11% 的 查 准 率 、65.72% 的 精确 
率 、63.10% 的 查 全 率 以 及 65.01% 的 Fl 得 分 ; 预测 数学 成 绩 最 高 能 获得 83.07% 的 查 准 率 、 

73.70% 的 精确 率 、73.33% 的 查 全 率 以 及 75.57% 的 Fl 得 分 。 研究 结果 说 明 , 机 器 学 习 建 立 的 
区 分 模型 具有 较 好 的 预测 效果 , 利用 log-file 所 记录 的 游戏 过 程 数据 可 以 对 个 体 的 能 力 进行 
有 效 预 测 。 
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心理 测验 (Psychological Testing) 发 展 百 余年 来 , 已 经 被 广泛 应 用 于 教育 (Di Giunta et al., 


2013)、 企 业 管 理 (Schmidt, 2002)、 临 床 医疗 (Judd, Schettler, & Rush, 2016) 等 各 个 领域 , 并 发 
挥 重 要 作用 。 但 传统 心理 测验 具有 的 一 些 不 足 之 处 使 其 在 应 用 上 面临 挑战 。 首 先 , 传统 心理 
测验 由 于 采取 明显 的 测验 形式 , 容易 令 个 体 产 生 测 验 焦虑 , 而 焦虑 会 显著 降低 受 测 者 的 外 在 
表现 , 使 个 体 真实 的 能 力 水 平 被 低估 (Cassady & Johnson, 2002)。 已 有 研究 表明 ,对 测验 成 绩 


的 焦虑 会 影响 个 体 的 注意 (Keogh & French，2001)、 降 低 工作 记忆 表现 (Ikeda, Iwanaga, & 
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Seiwa, 1996)、 降 低 智 力 测验 表现 并 使 得 问题 解决 更 加 艰难 (Cassady & Johnson, 2002)。 更 为 
严重 的 是 , 这 种 由 焦虑 引起 的 不 良 测验 成 绩 会 反 过 来 作用 于 个 体 自尊 ,并 直接 导致 名 惧 、 防 
御 性 与 逃避 性 行为 (Hembree，1988), 对 个 体 的 长 期 发 展 十 分 不 利 。 其 次 , 某 些 经 典 的 心理 测 
验 已 经 被 使 用 了 很 多 年 ,可 能 会 导致 测验 的 曝光 效应 ， 从 而 无 法 评估 个 体 的 真实 水 平 (Bors 
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& Vigneau, 2003)。 研 究 表明 ,测验 的 频繁 使 用 容易 被 人 们 破解 所 谓 的 “ 解 题 秘诀 ”个体 可 能 
事先 获得 题目 和 答案 信息 而 使 分 数 提 高 (Neisser 1997)， 或 通过 不 断 的 备考 和 练习 来 提高 测 
评 结果 (Bors & Vigneau, 2003), 但 这 并 不 能 反映 出 受 测 者 的 真实 水 平 , 反而 会 干扰 真实 的 测 


量 结 果 ， 对 测评 的 信 效 度 造 成 污染 (Neisser, 1997; Hausknecht, Halpert, Di Paolo, & Moriarty 
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Gerrard, 2007). 

鉴于 传统 心理 测验 存在 的 问题 ， 研 究 者 开始 考虑 采用 其 他 形式 和 工具 对 个 体能 力 和 人 
格 特质 进行 评估 。 近 年 来 , 随 着 计算 机 网 络 的 发 展 和 电子 游戏 的 普及 ， 基 于 游戏 的 评估 方式 
渐渐 流行 起 来 。 


基于 游戏 的 评估 (game-based assessment, GBA) 是 指 : 通过 游戏 (game) 或 者 游戏 化 的 活动 


(game-like activities)， 来 对 某 一 对 象 进行 评估 (Heinzen, Landrum, Gurung, & Dunn, 2015)。 从 
心理 学 的 角度 来 说 ,， 即 采用 游戏 的 方式 , 对 一 个 人 的 能 力 、 人 格 等 心理 特性 和 行为 进行 量化 
评估 。 这 里 所 说 的 游戏 是 指 所 有 一 般 意 义 上 的 游戏 ， 既 包 括 生 活 中 诸如 下 棋 、 捉 迷 藏 等 真实 
游戏 ， 也 包括 模拟 经 营 、 伦 敦 塔 、 连 连 看 等 各 类 平台 上 的 电子 游戏 (video game)。 基 于 游戏 
的 评估 方法 与 传统 的 心理 测验 相 比 具有 诸多 优点 。 首先, 将 心理 评估 游戏 化 意味 着 我 们 可 以 
跳出 传统 纸 笔 测 验 及 其 变 式 , 创造 出 丰富 而 多 样 化 的 测验 形式 和 内 容 , 例如 : 视觉 运动 技能 


(visuomotor skill) 的 测量 已 经 可 以 通过 手指 与 触 屏 的 游戏 式 互 动 来 实现 (Tenorio Delgado, 


Arango Uribe, Aparicio Alonso, & Rosas Diaz, 2016)。 其 次 ,游戏 的 可 玩 性 、 隐 蔽 性 和 仿真 性 
等 特点 使 得 基于 游戏 的 评估 更 易 被 人 们 接受 , 其 测验 情境 更 接近 于 真实 生活 ， 具 有 挑战 性 和 
交互 式 的 特点 , 能 够 极 大 程度 地 提高 受 测 者 的 动机 和 投入 程度 ， 并且 还 能 通过 降低 社会 称许 
性 的 影响 (Heinzen et al., 2015), 在 一 定 程度 上 避免 传统 心理 测验 中 的 测验 焦虑 和 测验 上 曝光 问 
题 。 此 外 , 全 新 的 测验 形式 意味 着 可 以 用 不 同 以 往 的 方式 来 收集 数据 。 例 如 以 电子 游戏 作为 
心理 测评 的 载体 ,可 以 通过 计算 机 后 台 记 录 玩 家 的 游戏 任务 操作 过 程 (DiCerbo & Behrens, 
2012)。 对 这 些 过 程 信息 加 以 正确 利用 ， 能 够 让 研究 者 对 个 体 的 能 力 和 特质 有 一 个 更 为 全 面 
的 了 解 ， 也 更 有 利于 心理 测评 的 效 度 提升 ， 使 得 心理 学 研究 的 重点 从 “结果 是 什么 ”转变 为 分 
ITERE ÆR” (Greiff, Wiistenberg, & Avvisati, 2015)。 目 前 ,基于 游戏 的 评估 得 到 了 研究 
者 的 重视 如 Sonnleitner 和 Köstering 等 人 分 别 利用 基因 实验 室 和 伦敦 塔 游戏 任务 对 个 体 的 
复杂 问题 解决 和 计划 性 等 认 知 能 力 进 行 了 评估 (Sonnleitner et al., 2012; Köstering et al., 2015); 
Ventura 和 Baumert 等 人 分 别 利 用 沙 盒 游 戏 和 独裁 者 博弈 游戏 任务 来 评估 个 体 的 坚持 性 、 公 
平 性 和 利他 性 等 人 格 特质 (Ventura & Shute, 2013; Baumert, Schlosser, & Schmitt, 2014). 


然而 ,目前 基于 游戏 的 评估 在 应 用 中 也 存在 一 些 问 题 , 还 没有 在 数据 分 析 和 计 分 逻辑 中 
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充分 利用 游戏 的 过 程 信息 , 仅 使 用 少数 指标 对 某 变量 进行 评估 。 例 如 Li, Zhang, Du, Zhu 和 
Li (2015) 通 过 推 箱子 游戏 测量 被 试 的 元 认 知 计划 , 但 仅 记 录 并 使 用 了 第 一 步 时 间 与 总 时 间 
的 比值 ， 以 此 作为 评估 指标 ; Berg 和 Byrd (2002) 在 使 用 伦敦 塔 游戏 测量 计划 性 时 , 仅 使 用 第 
一 步 移动 前 的 时 间作 为 评估 指标 。 在 上 述 研究 中 ,大 量 过 程 性 信息 被 浪费 ,而 这 些 信 息 很 可 
能 隐藏 着 可 以 衡量 个 体 特质 或 能 力 的 指标 ,如 每 一 步 思考 的 时 间 、 动 作 的 回溯 等 (Greiff et al., 
2015)， 因 而 无 法 对 个 体 特质 或 能 力 进行 全 面 完 备 的 评估 。 

鉴于 基于 游戏 的 评估 在 应 用 中 所 存在 的 问题 , 心理 测评 领域 焉 需 一 种 有 效 的 数据 分 析 
方法 来 处 理 这 些 问题 ， 以 实现 对 个 体能 力 和 特质 更 为 准确 的 评估 。 随 着 人 工 智 能 研究 的 兴起 
和 发 展 , 机 器 学 习 已 经 成 为 一 门 集 挑战 性 、 实 用 性 、 价 值 性 于 一 体 的 热门 学 科 , 尤其 是 谷歌 
AlphaGo 在 人 机 大 战 中 获胜 的 奇迹 使 得 机 器 学 习 成 为 备 受 瞩目 和 极 富 发 展 前 景 的 领域 .目前 ， 
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> 己 经 有 研究 者 将 机 器 学 习 引 入 心理 学 领域 , 并 应 用 于 人 格 预 测 (Wu，Kosinski, & Stillwell, 
N 2015). 此外, Zhang, Song, Cui, Liu 和 Zhu (2016) 根 据 人 类 步 态 可 作为 情绪 识别 的 依据 这 一 原 


H, 设计 了 内 置 加 速度 传感器 的 智能 手 环 , 用 于 测量 被 试 的 情绪 状态 。 研 究 首先 对 123 名 被 
试 进行 了 情绪 操纵 和 原始 数据 收集 ,之 后 进行 数据 预 处 理 和 特征 提取 , 然后 通过 机 器 学 习 的 
方法 对 数据 进行 处 理 和 建 模 , 结果 发 现 机 器 学 习 的 不 同 算法 均 能 够 较为 准确 地 识别 情绪 ( 快 
乐 、 中 性 、 慎 怒 ),， 尤 其 是 LibSVM 算法 在 区 分 中 性 和 愤怒 情绪 上 的 准确 度 高 达 91.3%; 在 进 
行 三 种 情绪 状态 的 区 分 上 , 也 达到 了 81.2% 的 准确 率 。 
要 指出 的 是 , 机 器 学 习 算法 通常 需要 使 用 到 大 体 量 的 数据 , 计算 机 过 程 数 据 追 踪 技 术 
= log-file 为 此 提供 了 实现 可 能 .所 谓 log-file 是 指 包含 受 测 者 所 有 活动 足迹 的 日 志文 件 ， 其 
优点 是 能 够 全 面 、 实 时 地 记录 全 部 数据 , 信息 量 丰 富 ， 有 利于 后 期 的 数据 挖掘 和 分 析 
(Moharil et al., 2014)。 这 一 技术 不 仅 实现 了 对 研究 变量 的 在 线 测 量 ， 而 且 避 免 了 传统 方法 中 
数据 收集 工作 耗 时 费力 的 缺陷 , 可 在 大 规模 施 测 的 同时 无 干扰 地 记录 被 试 的 真实 行为 。 近 年 
来 , 采用 基于 计算 机 网 络 平台 的 游戏 log-file 方式 对 变量 进行 研究 已 经 成 为 心理 学 领域 的 新 
趋势 , 如 Sonnleitner 等 人 (2012) 开 发 的 游戏 任务 , 会 在 计算 机 后 台 生 成 log-file 文件 , 但 遗憾 
的 是 他 们 并 没有 充分 利用 log-file 信息 ， 只 是 选取 了 少数 几 个 指标 用 于 评估 受 测 者 的 复杂 问 
解决 能 力 。 这 其 中 的 主要 原因 在 于 数据 挖掘 本 身 的 困难 。log-file 数据 通常 变量 众多 、 数 
量 巨 大 ， 从 这 些 数据 中 找 出 有 意义 的 信息 和 关系 是 比较 困难 的 (Csap6, Ainley, Bennett, Latour, 
& Law,，2012)。 也 正 因为 如 此 ,机 器 学 习 技术 可 以 在 这 类 研究 中 体现 出 独特 的 优势 ， 能 够 通 
过 充分 利用 log-file 的 信息 ,建立 较为 复杂 的 模型 ， 实现 更 为 准确 的 预测 。 
基于 上 述 分 析 , 本 研究 拟 采 用 游戏 任务 , 并 结合 log-file 技术 和 机 器 学 习 技术 ,尝试 对 个 
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体 的 能 力 倾 向 (aptitude) 和 学 业 成 就 (achievement) 两 类 能 力 进行 预测 ， 在 操作 层面 将 以 抽象 推 
理 能 力 和 数学 学 习 成 绩 作 为 研究 变量 。 之 所 以 选择 这 两 类 能 力 ,是 因为 能 力 倾 向 和 学 业 成 绩 
均 是 学 生 求学 生涯 中 的 重要 变量 , 前 者 能 够 反映 出 个 体 在 广泛 的 信息 加 工 任务 中 的 潜能 , 后 
者 则 是 学 习 结 果 的 主要 表现 ,对 学 生 自 我 概念 的 建构 、 思 维 能 力 的 发 展 以 及 社会 适应 的 培养 
等 方面 都 具有 显著 的 影响 (Duncan et al., 2007)。 研 究 拟 选取 “ 推 箱子 ”作为 游戏 任务 。 在 该 游 
戏 中 , 受 测 者 需要 调用 其 认 知 和 元 认 知 加 工 , 持续 对 箱子 的 位 置 和 小 人 的 移动 路 线 进行 思考 ， 
涉及 到 大 量 的 抽象 推理 、 空 间 想 象 与 操作 ， 以 及 数字 运算 工作 , 因此， 受 测 者 在 游戏 过 程 中 
的 表现 很 有 可 能 能 够 反映 其 推理 能 力 和 数学 学 业 成 就 的 水 平 。 由 于 从 游戏 log-file 中 收集 到 
的 原始 数据 并 不 规范 , 不 能 直接 作为 特征 加 入 模型 中 ,因此 需要 研究 者 进行 特征 提取 ,从 而 
生成 有 可 能 反映 受 测 者 能 力 的 特征 。 以 往 关 于 推 箱子 的 研究 涉及 到 认 知 能 力 、 元 认 知 能 力 、 
认 知 效率 三 种 指标 ( 张 博 , E, RE, FE, 2014)。 本 研究 在 选取 特征 时 虽然 也 将 从 这 三 
个 方面 进行 考虑 , 但 会 选取 更 多 特征 ,通过 增加 特征 数量 使 模型 的 预测 率 更 高 。 例 如 在 认 知 
能 力 方面 ， 拟 选取 完成 箱子 比例 、 关 卡 是 否 成 功 等 特征 ; 在 元 认 知 能 力 方面 拟 选取 第 一 步 
计划 时 间 与 总 时 间 的 比值 .第 一 步 计 划 时 间 与 平均 执行 时 间 的 比值 ， 以 及 二 者 的 对 数 等 特征 ; 
在 认 知 效率 方面 , 拟 选取 思考 步 数 、 与 最 优 步 数 之 差 等 特征 。 此 外 , 考虑 到 受 测 者 在 “成 功 ” 
的 关卡 与 “失败 ”的 关卡 中 可 能 存在 不 同 的 表现 , 因此 在 特征 选取 时 对 两 种 通关 情况 也 进行 
了 区 分 。 
2 方法 

研究 包含 4 个 步 又: 数据 和 采集、 特征 提取 、 数 据 预 处 理 和 模型 训练 。 
2.1 数据 采集 
2.1.1 被 试 

首都 师范 大 学 第 一 附属 中 学 的 395 名 初 一 和 初 二 学 生 参 加 了 研究 ， 有 效 被 试 为 360 名 ， 
其 中 女生 172 4, 男生 188 名 。 初 一 学 生平 均 年 龄 为 13.2 岁 , 最 小 为 11.9 3, 最 大 为 15.1 
岁 ; 初 二 学 生平 均 年 龄 为 14.6 岁 , 最 小 为 14.1 岁 , 最 大 为 16.3 岁 。 
2.1.2 HERP KK 


推 箱子 (Sokoban) 是 一 款 经 典 益 智 游戏 ， 


一 个 小 人 和 至 少 1 个 箱子 组 成 , 玩家 需要 操纵 
小 人 上 下 左右 移动 , 将 箱子 推 入 目标 位 置 。 经 过 研究 者 对 程序 的 改编 , 计算 机 后 台 可 以 自动 
生成 log-file 文件 ,记录 受 测 者 每 一 步 的 潜伏 期 与 按键 动作 ， 例 如 时 间 节 点 ` 小 人 移动 的 方向 、 
推动 的 箱子 、 完 成 步 数 等 。 游 戏 一 共 23 题 , 所 有 题目 都 不 允许 悔 棋 。 前 3 题 为 练习 题 ， 用 于 
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帮助 受 测 者 熟悉 键盘 操作 及 游戏 规则 。 在 练习 题 阶段 ， 答 错 可 重 来 , 直到 全 部 通过 方 可 进入 
目 


正式 游戏 。 第 4~23 题 为 正式 题目 , 每 题 限时 2min。 与 练习 阶段 不 同 ， 正 式 题 


Z, 若 一 次 未 通过 , 则 只 


只 有 一 次 机 
能 放弃 该 题 。 正 式 题目 中 的 箱子 个 数 在 1~3 之 间 , 每 题 均 有 唯一 最 


优 解 。 游 戏 界面 如 图 1 所 示 。 


2.1.3 测量 工具 


图 1 推 箱子 游戏 界面 截图 


瑞 文 标准 推理 测验 (Standard Progressive Matrices, SPM; Raven, 1989): 用 于 测量 一 般 智 力 


中 的 抽象 推理 能 力 , 共计 60 个 条 目 , 每 答对 一 题 计 一 分 , 满分 60 分 , 总 分 即 为 推理 能 力 得 分 。 


在 本 研究 的 受 测 者 中 , 平均 分 为 46.2 分 , 标准 差 为 8.5。 


数学 成 绩 : 研究 者 获得 了 学 生 的 三 次 数学 测验 的 成 绩 ( 期 中 、 月 考 、 期 末 ), 每 次 数学 测 


验 均 为 年 级 内 统一 施 测 ， 


因此 在 年 级 内 具有 可 比 性 。 将 三 次 数学 成 绩 取 平 均值 以 获得 对 学 生 


数学 能 力 较 为 准确 的 估计 。 本 研究 中 ,数学 成 绩 的 平均 分 为 64.9 分 , 标准 差 为 19.9。 
本 研究 属于 机 器 学 习 中 的 监督 学 习 (supervised learning) 类 别 , 而 监督 学 习 分 为 两 种 ,一 
是 利用 分 类 算法 预测 标 称 型 数据 , 二 是 利用 回归 算法 预测 连续 型 数据 。 对 于 本 研究 而 言 ， 推 


量 和 样本 量 的 要 求 较 高 ， 
之 间 的 关系 十 分 复杂 时 ， 


理 能 力 和 数学 成 绩 是 连续 型 数据 , 理论 上 应 使 用 回归 算法 进行 预测 , 但 是 回归 算法 对 特征 数 


其 创建 的 模型 需要 拟 合 所 有 的 样本 点 ， 当 数据 拥有 众多 特征 且 特 征 
构建 全 局 模型 难以 实现 (Harrington，2013)。 转 于 现实 因素 ,研究 无 


法 获取 更 多 受 测 者 ， 且 众多 特征 间 的 关系 较为 复杂 ,坚持 使 用 回归 算法 将 无 法 达到 恨 好 的 预 
测 效果 。 因 此 ,作为 一 项 尝试 性 研究 , 本 研究 在 数据 分 析 中 将 两 个 结果 变量 转化 为 标 称 型 数 


F, 具体 做 法 是 : 将 瑞 文 推理 测验 得 分 在 前 25% 的 学 生 记 为 1, 后 25% 得 分 的 学 生 记 为 0, 构 


造 瑞 文 得 分 的 二 分 变量 作为 最 终结 果 变量 ( 即 机 器 学 习 算法 的 标签 ), 其 他 学 生 的 数据 不 予 使 
FA, 最 终 有 效 的 受 测 者 是 180 名 ; 将 数学 成 绩 按照 年 级 分 层 ,将 每 个 年 级 数学 成 绩 排名 前 25% 
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的 学 生 标记 为 1, 后 25 多 的 学 生 标记 为 0, 构造 数学 成 绩 的 二 分 变量 作为 最 终结 果 变 量 ， 其 余 


学 生 的 数据 不 予 使 用 , 最终 有 效 受 测 者 也 为 180 名 。 


2.1.4 测试 流程 


ChinaXiv 合 作 期 刊 


所 有 学 生 均 以 班级 为 单位 在 计算 机 教室 参加 测试 。 受 测 者 首先 在 计算 机 上 完成 推 箱子 游 


戏 任务 ， 然 后 填写 纸 质 版 的 瑞 文 推理 测验 。 施 测 过 程 都 由 任课 教师 、 班 主任 和 主 试 一 同 监督 ， 


保证 安静 、 独 立 作 答 。 


2.2 ”特征 提取 


AJLA 


> 


Sb 


程序 记录 的 受 测 者 顺利 通过 某 一 关 的 典型 数据 形式 如 图 2 BAN WA, 在 第 一 步 之 前 会 
有 较 长 时 间 的 思考 , 在 思考 完成 后 则 有 较 快 的 按键 反应 ,在 操作 过 程 中 , 侦 尔 会 出 丙 
除了 过 程 数据 外 , 程序 同样 记录 了 受 测 者 在 本 关 是 否 通过 、 


见 潜伏 期 。 
朋 子 被 移 到 了 指定 位 置 、 


受 测 者 是 否 主动 放弃 本 关 、 任 务 超时 等 信息 。 下 面 将 对 特征 提取 的 具体 方法 进行 说 明 。 
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图 2 一 个 典型 的 行动 过 程 


2.2.1 第 一 步 所 用 时 间 


由 图 2 可 知 , 受 测 者 通常 会 分 配 较 长 时 间 在 第 一 步 之 前 的 思考 中 。 参 照 文献 , 我 们 计算 
出 受 测 者 在 每 一 关中 第 一 步 所 用 时 间 占 总 时 间 的 比重 。 此 外 , 用 第 一 步 时 间 除 以 平均 执行 时 


间 ( 定 义 方法 见 2.2.3) 以 及 对 上 述 变 量 取 其 对 数 形式 ,构造 


2.2.2 ”执行 间 思 


8 多 个 特征 以 进行 较为 全 面 的 衡量 。 


受 测 者 在 执行 过 程 中 可 能 会 停 下 来 思考 , 反映 在 数据 中 即 是 : 在 执行 过 程 中 某 一 步 用 时 
较 其 他 时 间 异 常 变 高 ,为 了 反映 这 种 波动 性 ,计算 受 测 者 除了 第 一 步 之 后 各 步 用 时 的 标准 差 ， 
即 执 行 间 波 动 ， 同 时, 记录 时 间 超 过 平均 值 一 个 标准 差 以 上 的 步 数 占 总 步 数 的 比例 作为 受 测 


者 在 执行 过 程 中 的 思考 次 数 的 指标 。 
平均 执行 时 间 


2.2.3 
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吻 除 掉包 含 思考 的 行动 后 (包括 第 一 步 ),， 将 余下 的 行动 时 间 求 平均 。 这 部 分 时 间 反 映 了 
受 测 者 在 无 需 思 考 的 情况 下 执行 操作 的 时 间 。 
2.2.4 NREM 

根据 受 测 者 的 行动 路 线 可 以 求 出 受 测 者 每 一 步行 动 后 的 整体 状态 ,计算 出 其 路 径 中 重复 
的 状态 ( 即 在 两 个 状态 中 , 小 人 和 所 有 箱子 的 位 置 完全 相同 ) 占 最 优 路 径 中 总 状态 数 的 比例 。 
其 中 , 对 于 一 个 状态 重复 多 次 的 情况 只 记 为 1， 以 避免 玩家 在 两 个 状态 间 “ 来 回 踊 步 ”产生 误 
差 。 
2.2.5 与 最 优 路 径 重 合 比例 
通过 广度 优先 搜索 算法 , 可 以 求 出 每 一 关 的 最 优 路 径 ， 并 计算 受 测 者 的 路 径 与 最 优 路 径 
重合 的 比例 。 具 体 而 言 , 计算 受 测 者 路 径 的 状态 集合 与 最 优 路 径 状 态 集合 的 交集 , 计算 交集 
占 最 优 路 径 状 态 集 的 比例 ,同样 排除 掉 “ 来 回 践 步 * 的 情况 。 
2.2.6 与 最 优 路 径 相差 步 数 

受 测 者 步 数 与 最 优 步 数 的 差异 , 也 作为 一 个 指标 加 入 模型 中 。 
2.2.7 完成 箱子 的 比例 

所 有 关卡 中 ,程序 都 会 报告 受 测 者 完成 的 箱子 占 总 箱子 的 比例 ,把 它 作 为 一 个 特征 加 入 
到 模型 ! 
2.2.8 ”每 题 是 否 成 功 、 放 弃 

每 道 题 有 三 种 状态 , 成 功 通过 、 放 弃 、 超 时 , 用 两 个 二 分 变量 来 刻画 这 三 种 情况 ， 并 作 
为 特征 加 入 模型 中 , 即 对 于 “是 否 成 功 ” 这 一 特征 来 说 ,成 功 记 为 1, 放弃 记 为 0, 超时 记 为 0; 
对 于 “是 否 放弃 ”这 一 特征 来 说 , 成功 记 为 0, 放弃 记 为 1, 超时 记 为 0。 
2.3 ”数据 预 处 理 

原始 数据 以 每 一 关 为 一 个 观测 值 , 但 在 训练 模型 时 需要 以 受 测 者 为 单位 的 观测 值 。 直 接 
将 长 型 数据 转换 为 宽 型 数据 , 即 对 于 每 个 受 测 者 每 一 关 都 提取 出 上 述 特征 ,总 共 特 征 数 是 单 
关 特 征 数 的 20 倍 , 这 会 存在 以 下 问题 : 一 ,由 于 样本 规模 不 大 , 特征 过 多 不 利于 模型 训练 ， 
容易 过 拟 合 ; 二 ,同一 个 指标 在 成 功 和 失败 两 种 状态 下 可 能 有 不 同 的 意义 ， 以 “与 最 优 路 径 
相差 步 数 "这 一 特征 为 例 失败 的 状态 下 ,， 受 测 者 的 步 数 通常 会 低 于 最 优 路 径 步 数 ， 数 字 越 
大 表明 受 测 者 越 坚持 ， 而 在 成 功 的 状态 下 ,数字 越 大 则 反应 受 测 者 的 步 数 偏离 最 优 路 径 越 远 。 
为 了 克服 以 上 问题 , 将 上 述 特 征 均 以 成 功 与 否 划 分 为 两 组 ， 即 对 于 以 上 每 个 特征 ,都 构造 出 
两 类 : 一 类 用 于 描述 该 特征 在 成 功 的 关卡 中 对 推理 能 力 和 数学 成 绩 的 预测 能 力 ， 另 一 类 描述 
在 失败 的 关卡 中 对 二 者 的 预测 能 力 。 对 于 是 否 成 功 、 是 否 放 弃 两 个 二 分 变量 , 直接 在 各 组 间 


T 


求 平均 容易 忽略 掉 每 道 题 的 难度 信息 ， 故 使 用 因子 分 析 从 其 中 提取 出 两 个 因子 作为 特征 用 
以 训练 模型 。 因 此 ,模型 中 共 放 入 23 个 特征 用 于 训练 , 特征 的 描述 统计 结果 见 表 1。 
表 1 特征 的 描述 统计 结果 


特征 平均 值 标准 差 最 小 值 最 大 值 
第 一 步 用 时 /平均 执行 时 间 22.71 24.26 2.52 198.34 
In (第 一 步 用 时 /平均 执行 时 间 ) 2.31 0.82 0.81 4.97 
完成 箱子 的 比例 0.33 0.08 0.00 0.57 
第 一 步 用 时 /总 时 间 0.22 0.12 0.04 0.76 
In (第 一 步 用 时 /总 时 间 ) -1.92 0.60 -3.31 —0.29 
思考 步 数 占 比 -2.39 0.23 一 3.04 一 1.69 
平均 执行 时 间 0.64 0.15 0.37 1.33 
执行 间 波动 2.15 1.20 0.35 10.52 
重复 步 数 占 比 0.07 0.03 0.00 0.20 
与 最 优 步 数 相 差 -5.75 9.45 -23.36 65.78 
与 最 优 路 径 重 合 步 数 占 比 0.17 0.04 0.04 0.32 
成 功 组 
第 一 步 用 时 /平均 执行 时 间 24.36 23.81 2.65 168.97 
In (第 一 步 用 时 /平均 执行 时 间 ) 2.49 0.78 0.92 4.95 
第 一 步 用 时 /总 时 间 0.25 0.14 0.04 0.77 
In (第 一 步 用 时 /总 时 间 ) -1.77 0.61 -3.18 -0.27 
思考 步 数 占 比 -2.61 0.27 -3.53 -1.64 
平均 执行 时 间 0.48 0.11 0.33 1.18 
执行 间 波动 1.17 0.76 0.20 5.43 
重复 步 数 占 比 0.03 0.02 0.00 0.16 
与 最 优 步 数 相差 7.65 5.45 0.00 52.67 
与 最 优 路 径 重 合 步 数 占 比 0.71 0.14 0.17 1.06 
注 : 因子 分 析 抽取 出 的 两 个 因子 不 具有 平均 数 、 标 准 差 等 描述 性 统计 含义 ， 故 未 放 在 表格 中 。 


研究 者 计算 了 上 述 特征 与 瑞 文 测验 成 绩 和 数学 成 绩 的 相关 ,结果 发 现成 功 组 和 失败 组 
的 第 一 步 用 时 /总 时 间 、hn (第 一 步 用 时 /总 时 间 )、 第 一 步 用 时 /平均 执行 时 间 、ln (第 一 步 用 时 
/平均 执行 时 间 ) 等 特征 均 与 瑞 文 测验 成 绩 和 数学 成 绩 有 显著 相关 ， 相 关系 数 在 0.19~0.46 之 
间 。 此 外 ,数学 成 绩 还 与 失败 组 思考 步 数 占 比 、 失 败 组 完成 箱子 的 比例 显著 相关 ， 相 关系 数 
分 别 是 0.16 和 0.17。 这 些 结果 初步 表明 了 本 研究 特征 选取 的 有 效 性 。 
24 ”模型 训练 


推理 能 力 与 数学 成 绩 的 模型 训练 策略 一 致 ， 使 用 基于 Python 3 的 scikit-learning 包 
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(Pedregosa et al., 2011) 提 供 的 随机 森林 模型 进行 训练 ,该 算法 是 分 类 学 习 的 常用 算法 。 随 机 
森林 (Random Forests, RF) 是 决策 树 的 集合 , 利用 多 棵 树 对 样本 进行 训练 和 评估 的 分 类 器 。 该 
算法 会 重复 选择 随机 样本 , 在 训练 集中 生成 多 个 样本 集 ， 每 个 样本 集 都 会 形成 一 棵 树 ， 最 后 
根据 生成 的 这 些 树 在 测试 集中 进行 评估 , 投票 最 多 的 作为 最 终 类 标签 (Breiman, 2001). 

研究 中 ,首先 随机 划 出 30 多 的 样本 作为 评估 集 ,，70% 的 样本 用 于 交叉 验证 以 及 超 参 数 搜 
索 。 在 70% 的 样本 中 , 使 用 4 折 交 叉 验 证 策略 将 样本 再 次 随机 分 成 4 组 , 依次 选择 其 中 一 组 
和 为 验证 集 ， 其 他 三 组 作为 训练 集 。 在 训练 集 上 训练 特定 参数 的 模型 ， 将 获得 的 模型 在 验证 
中 测试 , 计算 模型 得 分 。4 个 轮 次 后 , 每 组 样本 均 有 3 次 作为 训练 集 , 1 次 作为 验证 集 , 将 4 
日 中 获得 的 得 分 求 平 均 ,为 对 应 超 参数 的 模型 在 交叉 验证 组 中 的 得 分 。 

随机 森林 模型 具有 多 个 参数 可 供 调整 , 不 同 的 参数 设置 会 影响 模型 的 拟 合 效 果 。 本 研究 
关注 的 主要 参数 为 : 最 大 特征 数 、 最 大 深度 、 最 小 分 裂 样本 量 、 拟 合 器 数量 。 最 大 特征 数 表 
示 在 寻找 一 个 最 优 的 分 裂 过程 中 需要 考虑 的 特征 数 ; 最 大 深度 表示 一 个 决策 树 最 大 的 深度 ， 
达到 该 深度 后 即 停止 分 裂 ; 当 一 个 节点 上 的 样本 量 低 于 最 小 分 裂 样本 量 时 该 节点 即 停 止 分 
; 拟 合 器 数量 是 指 在 随机 森林 中 的 树 的 数量 。 采 用 网 格 搜索 的 策略 寻找 出 最 优 的 参数 ， 对 
每 一 种 超 参 数组 合 都 进行 一 次 交叉 验证 , 选择 出 交叉 验证 中 平均 得 分 最 高 的 超 参数 组 合 。 搜 
索 的 范围 为 : 最 大 特征 数 由 5 至 16; 最 小 分 裂 样本 量 由 2 至 10; 最 大 深度 由 2 至 8， 拟 合 器 
数量 包括 5、10、50、160 四 种 。 因 此 总 共 需 要 进行 3024 次 交叉 验证 。 经 过 3024 次 交叉 验 
证 后 , 在 验证 集 上 得 分 最 高 的 超 参数 组 合 即 为 最 优 参数 组 合 。 但 是 通过 交叉 验证 获得 的 得 分 
并 不 能 准确 评估 该 模型 的 有 效 性 : 因为 超 参数 搜索 本 身 也 相当 于 拟 合 的 过 程 ， 容 易 出 现 过 拟 
合 。 因 此 对 于 该 模型 的 评估 需要 在 评估 集 上 测试 。 首 先 ， 使 用 获得 的 最 优 参数 , 用 交叉 验证 
中 涉及 的 所 有 70% 的 样本 对 随机 森林 模型 进行 拟 合 , 之 后 用 拟 合 后 的 模型 以 及 评估 集中 的 
特征 对 推理 能 力 分 类 和 数学 成 绩 分 类 进行 预测 , 用 预测 得 到 的 分 类 与 真实 分 类 作 比 较 , 计算 
得 分 。 由 此 得 到 的 得 分 是 对 模型 预测 能 力 比 较 准 确 的 评估 。 

分 类 模型 建立 后 , 可 以 用 多 种 评估 方式 考察 模型 的 预测 效果 ,主要 可 以 分 为 4 类 : 真实 
阳性 (True Positive)， 即 预测 为 阳性 且 实际 上 也 为 阳性 ; 虚假 阳性 (Fake Positive)， 即 预测 为 阳 
性 但 实际 上 为 阴性 ; 真实 阴性 (True Negative)， 即 预测 为 阴性 实际 上 也 为 阴性 ; 虚假 阴性 


(Fake Negative)， 即 预测 为 阴性 但 实际 上 是 阳性 。 每 种 类 别 的 表示 方式 如 表 2 所 示 。 
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表 2 分 类 表现 评估 表 
预测 为 阳性 
TP 


FP 


根据 上 述 分 类 可 以 得 到 最 常用 的 指标 : 


(1) 精 确 率 (Accuracy): 精 和 有 


py 


除 以 总 观测 值 数量 ， 即 (TP+TN)/(TP+TN+FP+FN); 


(2) 查 准 率 (Precision, P): 查 准 率 描述 在 预测 为 


TP/(FP+TP); 


(3)# 42% (Recall, R): 查 全 率 描 述 在 所 有 实际 


TP/(TP+EN); 


(4) Fl: 查 准 率 与 查 全 率 两 者 显然 是 存在 一 些 巴 盾 : TER AER MI 


之 亦 然 。F 


在 走 


性 的 样本 中 ,真实 PB 


性 样本 中 ,预测 为 B 


预测 为 阴性 


FN 


TN 


有 率 是 最 为 简单 、 直 接 的 一 个 指标 , 为 正确 预测 的 观测 值 数 量 


性 的 比例 ， 即 


性 的 比例 ， 即 


牲 一 些 查 全 率 , 反 


1 则 是 查 准 率 与 查 全 率 两 者 之 间 较 为 平衡 的 一 个 指标 , 公式 为 Fl = 2RP/(R+P)。 


馈 参 数 搜索 中 ,分 别 以 4 种 计 分 方式 为 目标 , 即 对 应 每 个 计 分 方式 均 找 到 一 个 能 使 其 


最 大 化 的 超 参数 组 合 ， 以 满足 不 同 的 预测 需要 。 


3 结果 


准 化 后 的 特征 减少 的 基尼 不 纯度 (Tan, Steinbach, & Kumar, 2006). K 


通过 对 模型 的 调整 可 以 发 现 一 个 模型 中 所 有 特征 的 平均 重要 性 ,特征 


测 模型 中 排列 前 十 的 特征 ( 推 天 
的 比值 取 对 

与 否 指标 ， 

行 间 变动 、 重 


数 (成 功 组 ) 在 数学 成 绩 预测 模型 中 的 平均 避 
通过 因子 分 析 提 取出 来 的 第 一 个 因素 ; 与 最 人 
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要 性 定义 为 : 标 


3 显示 的 是 数学 成 绩 预 


能 力 预 测 模型 与 此 类 似 )， 可 见 ， 第 一 步 时 间 与 平均 执行 时 间 


要 性 最 高 ; 第 二 重要 的 特征 是 从 成 功 


* 解 相差 的 步 数 、 思 考 时 间 占 比 、 执 


E 复 步 数 占 比 等 因素 均 对 模型 有 一 定 页 献 ， 证 实 A 


究 所 提取 的 特征 的 有 效 性 。 
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图 3 数学 成 绩 预测 模型 中 平均 重要 性 排列 前 十 位 的 特征 
通过 对 上 文 所 述 的 特征 进行 训练 ,所 得 模型 在 评估 集 上 的 表现 如 表 3 所 示 。 第 一 列表 示 
在 超 参 数 搜索 时 评估 模型 使 用 的 标准 ， 即 最 优化 目标 , 其 他 四 列表 示 相 应 的 模型 在 评估 和 集 上 
相应 指标 的 得 分 。 结 果 表 明 , 在 超 参 数 搜索 阶段 采用 不 同 的 最 优化 目标 对 结果 的 影响 不 大 。 
该 模型 预测 数学 成 绩 ， 能够 达到 80% 左 右 的 查 准 率 ， 而 Fl、 查 全 率 、 精 确 率 都 在 70% 左 右 ; 
对 于 推理 能 力 的 预测 结果 稍 弱 于 对 数学 成 绩 的 预测 , 平均 能 达到 65% 左 右 的 Fl, 75% 左 右 的 
查 准 率 , 60% 左 右 的 查 全 率 ， 以 及 65% 左 右 的 精确 率 。 该 结果 表明 机 器 学 习 建立 的 区 分 模型 
结果 尚 可 接受 。 
表 3 模型 预测 结果 
最 优化 目标 Fl 查 准 率 查 全 率 精确 率 
推理 能 力 
F1 优先 68.83% 74.40% 61.19% 63.46% 
查 准 率 优先 63.72% 75.51% 59.17% 65.03% 
查 全 率 优先 65.01% 74.91% 63.10% 64.21% 
精确 率 优先 64.22% 76.11% 59.05% 65.72% 
F1 优先 71.14% 79.35% 71.11% 68.02% 
查 准 率 优先 75.57% 83.07% 73.33% 73.70% 
查 全 率 优先 73.09% 81.06% 71.78% 70.62% 
精确 率 优先 71.65% 80.19% 69.67% 69.44% 
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4 讨论 

本 研究 尝试 从 推 箱子 的 log-file 数据 中 挖掘 信息 ， 并 使 用 随机 森林 模型 预测 学 生 的 推理 
能 力 分 类 以 及 数学 成 绩 分 类 ,模型 预测 的 推理 能 力 达到 了 约 75% 的 查 准 率 以 及 65% 左 右 的 
精确 率 ; 预测 数学 成 绩 达 到 了 约 80% 的 查 准 率 以 及 70% 左 右 的 精确 率 , 结果 说 明 模 型 预测 效 
果 尚 可 ,表明 游戏 log-file 结合 机 器 学 习 能 够 训练 出 较 好 的 区 分 模型 用 以 预测 个 体 的 抽象 推 
理 能 力 和 学 业 成 就 。 
4.1 过 程 性 数据 的 利用 

研究 通过 从 log-file 的 过 程 性 数据 中 提取 多 个 特征 , 一 方面 部 分 支持 了 以 往 研究 的 结果 ， 
另 一 方面 也 完善 了 前 人 研究 中 特征 利用 不 充分 的 不 足 。 

首先 ， 本 研究 发 现 , 计划 性 指标 ( 即 第 一 步 所 用 时 间 占 全 部 时 间 的 比值 ) 在 推理 能 力 和 数 


= 
SS 


= 学 成 绩 的 区 分 模型 中 均 占 有 重要 地 位 ， 且 成 功 组 的 比 什 大 于 失败 组 ,说 明 事 先 计 划 对 于 开展 
= 罗 辑 推理 类 任务 至 关 重要 。 无 论 是 在 完成 图 形 推理 题目 ， 还 是 在 回答 数学 试题 方面 ,对 题目 
= 或 任务 的 计划 会 在 一 定 程度 上 决定 最 终 的 结果 ， 这 与 以 往 研究 相 -一 致 Lietal, 2015). 

其 次 ,以 往 使 用 推 箱子 的 研究 没有 区 分 受 测 者 在 题目 上 成 功 和 失败 两 种 情况 , 而 同一 特 
© 征 在 两 种 情况 下 可 能 代表 不 同 的 含义 ,这样 做 会 浪费 特征 本 身 具有 的 价值 。 本 研究 在 获取 大 
Se 量 过 程 性 数据 的 基础 上 , 对 特征 在 成 功 或 失败 情况 下 进行 了 分 解 ， 以 便 充 分 利用 每 个 特征 。 
> 结果 发 现 , 同一 特征 在 不 同情 况 下 的 贡献 确实 存在 差异 。 例 如 ,在 数学 成 绩 预 测 模型 中 , In 


(第 一 步 用 时 /平均 执行 时 间 ) 这 个 特征 在 成 功 和 失败 情况 下 均 对 模型 有 贡献 , 但 前 者 的 贡献 


= 要 大 于 后 者 ; 在 模型 贡献 排名 前 十 的 特征 中 ,失败 情况 下 有 较 强 预 测 效果 的 是 “与 最 优 步 数 
O 差 "、“ 执 行 间 波 动 "、“ 重 复 步 数 占 比 "、“ 与 最 优 路 径 重 合 比例 "等 特征 ; 而 成 功 情况 下 有 较 强 


预测 效果 的 是 “思考 步 数 占 比 "、“ 与 最 优 步 数 差 >、“In (第 一 步 时 间 / 总 时 间 )” 等 特征 。 
4.2 ”机 器 学 习 算 法 的 预测 效果 

对 于 推理 能 力 和 数学 成 绩 这 两 个 结果 变量 来 说 , 使 用 随机 森林 所 建立 的 区 分 模型 在 预 
测 效 果 上 存在 一 定 差异 。 具体 而 言 ， 数学 成 绩 的 区 分 模型 能 够 达到 83.07% 的 查 准 率 , 而 对 于 
推理 能 力 的 区 分 模型 ， 最 高 能 达到 76.11% 的 查 准 率 。 该 结果 一 方面 说 明 本 研究 中 的 随机 和 森林 
模型 在 查 准 率 指标 上 达到 了 较为 一 致 的 最 优 预 测 效 果 ， 男 一 方面 说 明 从 推 箱子 任务 中 提取 
的 现 有 特征 更 适用 于 预测 数学 成 绩 。 这 可 能 是 因为 ， 瑞 文 推理 测验 以 测量 抽象 推理 能 力 为 主 ， 
相对 来 说 对 能 力 的 要 求 比较 单一 ; 但 数学 考题 涉及 的 认 知 和 元 认 知 能 力 更 加 广泛 , 包括 对 数 
量 关系 的 梳理 、 空 间 图 形 的 表征 、 使 用 策略 的 选择 等 ， 这 与 推 箱子 游戏 的 问题 解决 过 程 更 为 


ChinaXiv 合 作 期 刊 


相似 。 

在 模型 训练 中 ,使 用 不 同 的 最 优化 目标 会 对 模型 预测 结果 产生 一 定 影响 。 对 于 推理 能 力 ， 
采用 精确 率 优先 条 件 时 会 得 到 最 高 的 预测 查 准 率 ; 对 于 数学 成 绩 , 采用 查 准 率 优 先 条 件 时 会 
得 到 最 高 的 预测 查 准 率 。 说 明 对 于 不 同 的 结果 变量 , 不 同 的 最 优化 指标 会 产生 不 同 的 结果 ， 
基本 不 存在 可 以 同时 适用 于 多 个 变量 的 模型 。 在 不 同 的 模型 中 , 参数、 最 优化 指标 会 有 所 不 

E, 最 后 的 结果 也 会 呈现 一 定 的 差异 。 机 器 学 习 的 好 处 就 是 可 以 通过 不 断 的 调配 参数 来 获取 
对 结果 变量 最 为 有 效 的 预测 性 , 选择 具有 最 优 预测 效果 的 模型 。 
4.3 游戏 log-file 和 计算 机 技术 在 心理 测量 中 的 应 用 
随 着 信息 技术 的 发 展 ,计算机 过 程 数据 分 析 技 术 (computer logfiles analysis) 在 心理 测量 
领域 的 地 位 不 断 提升 。 计算 机 过 程 数据 分 析 技 术 是 指 通 过 追踪 、 分析 受 测 者 在 计算 机 上 完成 
> 任务 过 程 中 的 操作 行为 、 操 作 时 间 等 信息 来 提取 测量 指标 (Veenman, Bavelaar, De Wolf, & van 
GN Haaren, 2014)。 该 技术 相 较 于 传统 的 技术 有 诸多 显而易见 的 优点 。 首 先 , 传统 的 测量 方法 基 
于 被 试 的 自我 报告 , 或 者 基于 主 试 的 对 于 被 试行 为 的 编码 ， 而 过 程 数 据 的 分 析 依 赖 于 客观 指 
标 , 能 够 更 好 地 达到 标准 化 (Veenman, Wilhelm, & Beishuizen, 2004); 其 次 , 传统 的 测量 方法 ， 
尤其 是 在 测量 认 知 能 力 时 , 会 有 较 强 的 侵入 性 : 如 观察 、 出 声 思 考 技术 (Pressley & Afflerbach, 
1995) 等 , 在 这 些 条 件 下 受 测 者 完成 任务 的 能 力 一 定 程度 上 会 受到 影响 ; 而 过 程 数据 分 析 则 
不 具有 侵入 性 , 受 测 者 完成 任务 的 过 程 中 不 会 受到 打扰 ,能 够 在 最 自然 地 状态 下 表现 
(Veenman et al., 2014); 最 后 ,过程 分 析 技 术 成 本 较 低 ， 可 以 对 多 个 受 测 者 同时 施 测 ， 数据 分 
析 通 过 计算 机 自动 化 完成 , 因此 相 较 于 传统 的 测量 技术 如 出 声 思考 法 以 及 眼 动 追 踪 技 术 
PT (Kinnunen & Vauras, 1995) 等 更 加 省 时 。 由 于 大 量 的 过 程 数 据 无 法 用 传统 统计 方法 进行 分 析 ， 
而 需要 机 器 学 习 算法 的 引入 和 使 用 。 这 些 优 点 使 得 游戏 log-file、 计 算 机 过 程 数据 分 析 技 
术 、 机 器 学 习 将 在 未 来 得 到 更 多 的 发 挥 空间 。 
44 研究 意义 与 局 限 性 
研究 利用 推 箱子 游戏 获取 的 log-file 信息 ,并 使 用 机 器 学 习 算法 , 建立 了 较为 有 效 的 
分 模型 , 初步 实现 了 对 学 生 的 能 力 倾 向 和 学 业 成 就 的 预测 , 结果 可 以 为 其 他 心理 学 和 教育 学 
的 测评 工作 提供 借鉴 。 
同时 ， 本 研究 也 存在 一 定局 限 性 。 首 先 , 特征 提取 和 模型 建立 过 程 的 样本 仪 包含 测验 得 
分 排 在 前 25% 与 后 25% 的 受 测 者 ， 两 个 群体 间 能 力 差异 较 大 , 在 这 种 情况 下 ，80% 的 查 准 度 
并 不 完美 , 并 且 如 果 未 来 的 研究 目标 转化 为 对 连续 变量 进行 预测 时 ,预测 的 难度 会 进一步 提 
高 ; 其 次 , 虽然 目前 基于 推 箱子 游戏 的 过 程 数 据 建立 的 模型 可 以 较 好 地 预测 个 体 在 瑞 文 推 理 
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测验 和 数学 测验 上 是 否 成 功 , 但 实际 上 我 们 对 推 箱子 这 一 游戏 任务 本 身 到 底 涉及 到 哪些 认 
知 加 工 过 程 并 不 完全 清楚 ,因此 并 不 能 直接 用 模型 预测 的 分 数 代 蔡 瑞 文 推理 测验 成 绩 或 数 
学 测验 成 绩 。 在 之 后 的 研究 中 ,可 以 考虑 从 以 下 几 个 方面 进行 改进 。 第 一 ， 增 大 样本 量 。 由 
于 本 研究 在 模型 训练 中 使 用 的 样本 量 低 于 200, 为 了 避免 过 拟 合 ， 必 须 减 少 特征 数量 ,因而 
限制 了 模型 的 拟 合 能 力 。 未 来 研究 如 果 能 够 收集 到 足够 大 的 样本 量 , 则 可 以 使 用 更 多 的 特征 ， 
从 而 提高 模型 的 预测 能 力 。 第 二 , 增 大 受 测 者 在 所 预测 能 力 上 的 异 质 性 。 本 研究 采用 的 样本 
均 来 自 于 同一 所 中 学 , 受 测 者 的 抽象 推理 能 力 相 对 来 说 具有 较 强 的 同 质 性 , 这 将 增 大 模型 预 
测 的 难度 。 未 来 研究 如 果 能 在 不 同 的 地 区 (城市 、 农 村 )、 不 同 水 平 的 学 校 (重点 、 普 通 ) 取 样 ， 
岂可 能 会 提高 模型 的 预测 能 力 。 第 三 ,提取 更 多 的 特征 并 尝试 其 他 算法 .相对 于 以 往 研 究 , 本 
究 从 推 箱子 游戏 的 过 程 数据 中 提取 了 更 多 样 化 的 指标 , 包括 重复 状态 比例 、 思 考 次 数 等 ， 
但 log-file 中 仍 有 很 多 信息 可 以 被 挖 据 。 未 来 的 研究 可 以 尝试 提取 和 检验 更 多 的 特征 ,并 可 
考虑 采用 机 器 学 习 中 的 回归 算法 对 能 力 倾向 和 学 业 成 就 进行 预测 。 第 四 ， 相 对 于 瑞 文 推理 测 
验 任务 ， 推 箱子 游戏 任务 所 包含 的 认 知 加 工 过 程 更 加 多 样 化 , 更 具 动 态 性 ,未 来 研究 可 以 考 
虑 结合 眼 动 或 者 fMRI 技术 对 这 一 游戏 任务 所 涉及 的 心理 加 工 过 程 进 行 更 深入 的 考察 ， 从 而 
引导 研究 者 构造 出 更 多 有 实质 意义 的 特征 ， 为 能 力 的 个 体 差异 的 预测 提供 更 有 价值 的 预测 
源 ,甚至 通过 机 器 学 习 建 模 来 蔡 代 菜 些 传统 能 力 测量 工具 。 
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(]) 可 以 利用 游戏 log-file 收集 受 测 者 在 任务 中 的 过 程 性 数据 ,并 利用 机 器 学 习 算法 进行 
分 析 。 

(2) 机 器 学 习 建立 的 区 分 模型 对 数学 成 绩 和 推理 能 力 具 有 较 好 的 预测 效果 ,利用 电脑 所 
记录 的 游戏 过 程 数 据 可 以 对 个 体 的 能 力 进行 有 效 预测 。 
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Using game log-file to predict students' reasoning ability and 


mathematical achievement: An application of machine learning 
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Abstract 
With the development of the progress of information technology, the deficiency of traditional 
psychological testing is becoming more obvious, such as test anxiety and test exposure. Some 
researchers have begun to test individuals using game-based assessment, which has many 


advantages, such as increasing the motivation and input level of the participants, and providing the 


possibility for the implementation of log-file technology. However, the current data analysis and 
scoring logic ignore substantial information of process, and thus cannot accurately assess 
individual characteristics and abilities. The advantages of machine learning in data analysis 
provide a new direction. The machine learning algorithm can analyze the log-file data by building 
a complex model. 

The present study attempted to use game-based assessment combining game log-file and 
machine learning techniques to predict participants’ ability: reasoning ability and mathematical 
achievement. Participants were 360 first and second grade students from a middle school in 
Beijing; predictive variables were a series of features extracted from the game log-file, outcome 
variables were dichotomous variables calculated from Raven test and mathematics achievement, 
which took 25 and 75" percentile as the cutoff line. In the model training, the random forest 
algorithm was selected, 70% samples were randomly selected for cross validation and hyper 
parametric search, and then the prediction was carried out on the other 30% of samples. 

Results showed that the logarithm of the ratio of the first step time to the average execution 
time was the highest features of average importance ratio, and the number of steps that are 
different from the optimal solution, thinking time ratio, execution between fluctuation, proportion 
of repeat steps all contributed to the mathematical achievement prediction model; reasoning ability 
prediction model was similar. With these important features, it could be found that the reasoning 
ability prediction model had 76.11% precision, 65.72% accuracy, 63.10% recall and 65.01% F1 
scores; the mathematical achievement prediction model had 83.07% precision, 73.70% accuracy, 
73.33% recall and 75.57% F1 score. 

The finding of the present study showed that the random forest model had acceptable 
predictive effect when predicting reasoning ability and mathematics achievement classification 
based on the game log-file, with 75% precision of reasoning and 80% precision of math. In 
conclusion, the research provides a new method to predict the cognitive ability and academic 
achievement of the students; the game log-file combined with machine learning can establish an 
effective discrimination model. This result can provide some reference and direction for the 
development of educational psychological assessment. 

Key words video game; Sokoban; machine learning; reasoning ability; mathematical 


achievement. 


